查看原文
其他

进化树专题(三) | 比对及用Gblocks处理比对序列

小林 凌恩生物 2023-06-15

多序列比对是进化分析的基础,有时用来区分一组序列之间的差异,但其主要用于描述序列之间的相似性关系,常用的软件有 Muscle / MAFFT / ClustalW / T-coffee。

2004年Robert C. Edgar发表的文章对这几个软件进行了评估,在准确性和速度方面,Muscle的综合性能是最高的。



01

MUSCLE序列比对

Muscle及其他比对软件都可以接受DNA和Protein序列,输出格式默认是FASTA,也可以根据需要指定其他输出类型 ClustalW / GCG MSF / Phylip format。

命令行运行示例:

可以直接用Muscle 建树,树的格式是Newick format,但是能选用的算法有限,推荐还是使用PhyML v3.0 或 MrBayes。

如果需要进行自然选择分析,如利用 CodeML (PAML) 进行选择压力分析,就需要进行Codons方式比对,依然推荐 Muscle:

选择物种对应的密码子表,进行Codons方式的比对后,可以翻译成对应的氨基酸而不会产生内部终止子。需要注意的是输入的CDS必须完整且不含末端的终止密码子。


参考文献:

Robert C. Edgar. 2004. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 32(5): 1792-1797.


02

Gblocks

Gblocks(Version 0.91b,http://molevol.cmima.csic.es/castresana/Gblocks_server.html)用于从多序列比对结果中提取保守位点,以利于下一步的进化分析。尤其是差异比较大的序列,比对后Gaps区特别多,更需要用Gblocks做进一步处理。

Gbloks 有两种使用方式,第一种是交互式的方式(按提示输入文件改变参数),第二种是命令行方式(在命令行中输入参数)。

命令行运行示例:

参数说明 ---

-t= Default:p

设置序列的类型,可选的值是 p / d / c 分别代表 protein / DNA / Codons,如果前一步的比对选择的是Codons方式,则该参数设置为-t=c;

-b1= Default: 50% of the number of sequences + 1

设定保守性位点必须有 >= 该值的序列数。该参数后接一个 integer 数,默认为序列条数的 50% + 1;

-b2= Default: 85% of the number of sequences

确定保守位点的侧翼位点时,其位点必须有 >= 该值的序列数;

-b3= Default: 8

最大连续非保守位点的长度;

-b4= Default: 10

保守位点区块的最小长度。该值必须 >=2;

-b5= Default: n

设置允许含有 Gap 位点。可选的值有 n / h / a 分别代表 None / With Half / All;

-b6= Default: y (Use Similarity Matrices)

默认使用相似性矩阵,仅适用于蛋白比对序列。

-e= default: -gb

设置输出结果的后缀。

结果文件 ---

 

参考文献:

Talavera, G., and Castresana, J. (2007). Improvement of phylogenies after removing divergent and ambiguously aligned blocks from protein sequence alignments. Systematic Biology 56, 564-577. 

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存